استفاده از روش رجحان به منظور حل مسائل یادگیری تقویتی در pomdps
پایان نامه
- دانشگاه تربیت معلم - تهران - دانشکده مهندسی کامپیوتر
- نویسنده الهه عبدی
- استاد راهنما میرمحسن پدرام
- تعداد صفحات: ۱۵ صفحه ی اول
- سال انتشار 1391
چکیده
انتخاب کنش خوب، موضوع اصلی در هر گام تصمیم گیری برای رسیدن به موفقیت در سیستم های طبیعی و مصنوعی به شمار می رود و از این رو انتخاب کنش خوب در سیستم های نیمه رویت پذیر به منظور رسیدن به راه حل های بهتر، ضروری به نظر می رسد. اکثر تحقیقات در حوزه یادگیری ماشین نیز بر دو پایه اصلی بهبود کیفیت و کاهش زمان یادگیری متمرکز هستند. یکی از روش های موجود برای یادگیری در حوزه یادگیری تقویتی، الگوریتم تکرار سیاست می باشد که این روش در فرآیندهای نیمه رویت پذیر مارکوف، به صورت تقریبی و مبتنی بر گسترش می باشد. در این پایان نامه، بکارگیری الگوریتم تکرار سیاست مبتنی بر رجحان در سیستم نیمه رویت پذیر مارکوف با توجه به زمان داخلی پیشنهاد شده است. برای ارزیابی روش پیشنهادی از سه محیط آموزشی ماشین-کوهستان، پاندول معکوس و ماز استفاده شده است. نتایج آزمایش ها نرخ بالای موفقیت را در الگوریتم تکرار سیاست مبتنی بر رجحان که در آن از رتبه بند به عنوان سیاست یادگیری استفاده می شود، نسبت به الگوریتم سنتی تکرار سیاست تقریبی که در آن از نگاشت به عنوان سیاست یادگیری استفاده می شود، نشان می دهند. همچنین اجرای هر روش بر روی هر یک از محیط های شبیه سازی شده در فضای مارکوف رویت پذیر و نیمه رویت پذیر، نتایج تقریبا یکسانی را از خود برجای گذاشته است.
منابع مشابه
یک روش ترکیبی جدید یادگیری تقویتی فازی
در این مقاله یک روش جدید یادگیری تقویتی پیوسته برای مسائل کنترل ارائه میشود. روش ارائه شده از ترکیب روش "تکرار سیاست کمترین مربعات " با یک سیستم فازی سوگنوی مرتبه صفر حاصل شده و "تکرار سیاست کمترین مربعات فازی" نامیده شده است. در اینجا برای هر قاعده فازی تعدادی عمل نامزد در نظر گرفته میشود. هدف، یافتن مناسبترین عمل نامزد (تالی) برای هر قاعده میباشد. با استفاده از بردار شدت آتش قواعد فازی و ...
متن کاملتنظیم خودکار سختی بازیهای توانبخشی با استفاده از روش یادگیری تقویتی چندتناوبی (یاقوت)
تحقیقات نشان داده است که طراحی فعالیتهای توانبخشی در قالب بازیهای جدی میتواند منجر به انگیزش بیشتر در بیماران شود. درجه سختی چنین بازیهایی معمولاً بهصورت دستی توسط درمانگر تنظیم میشود. این در حالی است که بازیهای توانبخشی خانگی نیاز به تنظیم خودکار درجه سختی متناسب با مهارتهای بیماران دارند. این مقاله روشی برای تنظیم درجه سختی بازیهای توانبخشی ارائه میکند که در آن سختی بازی بهصورت ...
متن کاملراهکارکنترل مقاوم مبتنی بر یادگیری تقویتی به منظور توانبخشی حرکتی بازوی دست
توانبخشی حرکتی از مباحث مورد توجه محققان است. در اینتحقیق، یک راهکار کنترلی به منظور کنترل حرکت مدلی از بازوی دست با سه مفصل ارائه شده است. در مدل مورد استفاده، اثر فعالسازی همزمان عضلات آگونیست و آنتاگونیست مفصل مچ دست با استفاده از مکانیزم فریز سازی لحاظ شده است. با الهام از عملکرد سیستم اعصاب مرکزی در کسب مهارتهای حرکتی، راهکار کنترلی ارئه شده مبتنی بر یکی از الگوریتم های یادگیری تقویتی توس...
متن کاملبسط دوگانه سوپرپیکسل به منظور تعیین ناحیههای موثر در حل مسائل بینایی ماشین مبتنی بر قطعهبندی
یکی از روشهای موثر برای شناسایی دیداری (شامل طبقه بندی، شناسایی اشیاء و برچسب گذاری معنایی تصویر)، تعیین ناحیه های محتمل بر وجود شیء بنام نامزدهای شیء (Object proposals) است. در این مقاله یک روش کارآمد با تکیه بر تعیین ناحیه های موثر مبتنی بر قطعه بندی ناحیه ای به نام بسط دوگانه سوپرپیکسل SDE (Superpixel Dual Extension) به منظور بهبود کیفیت ناحیهبندی پیشنهاد شده است. روش پیشنهادی شا...
متن کاملحل مسائل بهینهسازی توزیع با استفاده از شبکههای عصبی
در این نوشتار چند روش جدید بر مبنای رویکرد شبکههای عصبی خودسازنده برای حل مسائل بهینهسازی ارائه میشود. این روشها بهویژه برای دو مسئلهی مهم در برنامهریزی توزیع ــ مسئلهی فروشندهی دورهگرد (TSP) و مسئلهی مسیریابی (VRP) ــ توسعه یافتهاند. عملکرد روشهای ارائه شده با بهکارگیری مسائل استاندارد موجود در ادبیات مورد ارزیابی قرار گرفتهاند. نتایج این آزمایشات نشان میدهد که روشهای ارائ...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
دانشگاه تربیت معلم - تهران - دانشکده مهندسی کامپیوتر
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023